\chapter{数据分析}

\section{统计分析概述}

\subsection{统计分析及其目的}

所谓统计分析，就是运用统计学原理和方法处理调查所获得的数据资料，从而简化和描述数据资料、揭示变量之间的统计关系并进而推断总体的一整套程序和方法。

统计分析的主要目的是：
（1）简化和描述数据资料。
（2）寻找并展示变量间的统计关系。
（3）用样本统计量推断总体。

所谓样本统计量，就是运用一定统计方法对样本数据进行处理而得出的统计值，它是对样本群体基本特征的简化描述或反映。

用样本统计量推断总体可分为两种情况：
一是参数估计。就是用样本统计量推断总体参数，即反映总体或研究总体的统计值。因为，总体不可能全部调查，总体参数不可能直接得到，只能通过样本统计量来估计，因而称为参数估计。

二是假设检验。假设检验是一种关于在多大置信水平上可用样本统计量推断总体参数的统计方法，其操作程序是，根据研究的问题先建立一个虚无假设或零假设（用H0表示）及与之针锋相对的备择假设（用H1表示），然后检验样本与总体的关系，即样本能否用来代表总体。

\subsection{统计分析的原则}

（1）科学性原则。
（2）规范性原则。
（3）效用最大化原则。

\subsection{统计分析的过程}

问卷调查的统计分析，大致要经过如下过程：

\begin{enumerate}
\item 数据的录入，就是将问卷或编码表中的数据代码录入计算机形成数据文件，以便进行统计分析。　
\item 数据的清理，就是对已录入计算机的数据进行检查，清除错误数据、补充漏录的数据等。
\item 数据的预处理，就是在统计分析之前对清理后的数据做预备性处理。正式统计分析之前的预处理，包括缺损值处理、加权处理、变量重新编码、数据重新排序以及创造新变量等等。
\item 数据的统计分析，就是调用统计软件中的各种统计程序对数据进行各种分析，包括单变量、双变量、多变量统计分析，以及制作统计图、统计表格等一系列工作。
\end{enumerate}　

\subsection{统计分析的层次}

统计分析可分为多种层次。按照统计分析的性质，可分为描述统计和推断统计；按照统计分析涉及变量的多少，可分为单变量统计分析、双变量统计分析和多变量统计分析。

\subsubsection{描述统计与推断统计}

描述统计是运用样本统计量描述样本统计特征的统计分析方法。描述统计是相对于推断统计而言的，即凡是只涉及样本而不涉及总体特征的统计分析方法都属于描述统计的范畴。

推断统计则是以概率理论为基础，运用样本统计量推断总体的统计分析方法。一般地说，社会调查的目的都是通过抽样调查来了解总体。因此，在统计分析中，通常都要运用推断统计方法。应该指出，描述统计与推断统计是密不可分的，描述统计是推断统计的基础和前提。只有在描述统计求出了样本统计量的基础上，才能推断总体参数或进行假设检验。

\subsubsection{单变量、双变量、多变量统计分析}

单变量统计分析，只能进行描述性研究。

只有双变量统计分析、特别是多变量统计分析，才能进行解释性研究。如果要进行解释性研究，就必须进行双变量统计分析或多变量统计分析。

常用的双变量统计分析方法，包括列联表分析与X2检验、各种双变量相关分析、二元回归分析等等。

当一项统计分析涉及三个或三个以上变量（其中至少有一个因变量）时，则称为多变量或多元统计分析。多变量统计分析是一种更为复杂的统计分析方法，因而通常称为高级统计方法。在社会调查中，常用的多变量统计分析方法有因素分析、多元方差分析、多元回归分析（包括Logistic回归分析）等等。　

\section{描述统计与推断统计}

\subsection{描述统计}

描述统计（DescriptiVe statistics）就是关于样本的统计分析方法，它的分析结果是样本统计量。描述统计的内容，包括单变量、双变量和多变量等几种层次的统计分析。

\subsection{推断统计}

推断统计是运用样本统计量对总体进行推断的一种统计分析方法。由于社会调查的最终目的是研究调查对象的总体，因此，它是社会调查中经常使用的统计方法。

推断统计的必备前提是，样本数据必须来自随机抽样调查。

\subsection{推断统计的两种基本形式}

（一）参数估计
通过样本计算出来的统计值为样本统计量，简称统计量，而总体统计值为参数。
所谓参数估计，就是运用样本统计量对总体参数进行推断或估计的统计过程与统计方法。包括点值计与区间估计两种方法。

1、值估计 ，就是选择一个最适当的样本统计量来直接代表总体的参数值。
如果一个统计量在参数的点值估计中复合无偏性、一致性、有效性、充分性，则可保证其点值估计的相对误差较小。
点值估计的最大缺陷是不知道估计的误差到底有多大。所以，常用的是区间估计。

2、区间估计

（二）假设检验

\section{单变量统计分析}

\subsection{集中量数分析}

所谓集中量数分析，是指用一个具体的统计量反映一组数据向该统计量集中趋势的统计方法，它所表示的是一组数据集中的程度或水平。常用的集中量数是平均数、中位数和众数。

（一）平均数（Mean）

平均数也称算术平均数，它是人们最熟悉、使用最频繁的一个集中量数，常用M表示。计算平均数的条件是，所有数据必须是定距或定比测量的数据。这是平均数的定义公式，适用于用单个原始数据计算平均数。

（二）中位数（Median）

中位数又称中数、中点数，它是指位于按一定顺序排列的一组数据中央位置的数值。计算中位数的条件是，只有定序、定距、定比数据才能求中位数，定类数据则无中位数可言。中位数常表示为Md或Mdn。
当资料为一组单个数据时，求中位数比较简单。
组成数据的个数为奇数时，中位数的数值就是位于中央的那个数据的数值。例如，前例5位同学考试成绩分别为65分、74分、78分、85分、90分，由5个数据组成，这组数据的中位数就是处于中央位置上的78分。
组成数据的个数为偶数时，中位数的位置则处于中间两个数据之间，在没有直接对应数值的情况下，通常取这两个数值的平均数作为中位数。
当资料为分组数据、特别是组距分组数据时，求中位数的方法就比较复杂。
由于这类中位数在社会调查中用处不大，而且在统计软件（如SPSS、SAS）中求任何资料的中位数、四分位数、百分位数等都很容易，因此这里就不再作介绍，有兴趣者可参看有关统计学书籍。

（三）众数（Mode）

众数又称为范数、密集数、通常数等，常用符号Mo表示。众数是指在一组数据中出现次数最多或出现频率最高的那个数的数值。众数也是一种集中量数，同样用于表达一组数据的集中趋势。
求众数最简单的方法是观察法，即通过观察找到一组数据中出现次数或频率最高的那个数，其数值就是所求的众数。
如一组数据为6，8，4，7，5，8，4，8，其中8这个数出现了3次，出现的次数最多，故8为这组数据的众数。
在分组数据中也可用观察法求众数。如果是从单值分组数据中求众数，可先找出最大的频数组，该频数组所对应的标志值就是所求的众数。
如果是从组距分组资料中求众数，在各组组距大小相同、各组上下限表示方法一致的情况下，可用与单值分组数据中求众数相同的方法求众数，即先找出最大的频数组，然后以该组之组中值作为所求的众数。
评价集中量数的优劣有一个标准，这就是：哪一种集中量数能最准确、最稳定地反映数据整体的集中趋势，哪一种集中量数就是最好的集中量数。从这个标准看，平均数、中位数、众数这三种集中量数，都各有优点和缺点。其中，平均数被公认是三种集中量数中最好的一种，也是使用得最多的一种。由于计算平均数时每个数据都参与进来，因而它能最全面、最准确地反映数据整体的集中趋势。但是，也正因为如此，它往往受一个或几个极端数据的影响，使平均数反映数据整体集中趋势的准确性变得面目全非。
中位数在表现数据整体的集中趋势上，一般没有平均数那么准确，但是，当一组数据中存在着极端数据、或数据整体中有个别数据不准确、不清楚的情况下，中位数能比平均数更准确、更稳定地反映数据整体的集中趋势。相比之下，在三种集中量数中众数被认为是最差的一种，但它也有自己的优点。例如，在需要快速而又粗略地找出一组数据的代表值时，众数比平均数、中位数都更能表现出其优越性。

\subsection{离散量数分析}

对于一组数据整体，只有既用集中量数描述其平均水平和典型情况，又用离散量数反映其分散性、变异性等特殊情况，才能真实描绘出这组数据整体的全貌。

所谓离散量数，就是表示一组数据变异程度或分散程度的量数。离散量数越大，表示数据分布范围越广，越不集中，越不整齐；反之，离散量数越小，表示数据分布范围越集中，变动程度越小。

常用的是方差与标准差、全距、异众比率、离散系数和偏度系数。

（一）方差与标准差（Variance and Standard Deviation）

方差是一种重要的离散量数，它的计算方法是，把一组数据中每个数据与该组算术平均数相减，将其差进行平方然后相加，再除以数据的个数。
标准差是最重要、应用最广泛的离散量数。标准差的值越大，表明数据的离散程度越大，也就是数据的差异性越大，分布越不均匀；反之，标准差越小，则是数据的离散程度越小，数据的差异性越小，数据越整齐。
从这里可以看出，分组数据计算方差与标准差的公式，与用原始数据计算方差与标准差的公式实质上是一样的，前者只是用单值分组数据中的实际数据或组距分组数据中的组中值取代原始数据，并且要与组的频数f相乘后再求和。

（二）全距（Range）

全距又称极差，它是一组数据中最大值与最小值之差，通常用R表示。
全距是最简单的离散量数，它概念清楚，含义明确，计算简便。但是，也正由于计算过于简单，仅由数据中最大值与最小值两个数据之差而得，不考虑中间数据的情况，因而反映数据的离散状况太粗略、不灵敏，只能作为离散量数的参考性指标。

（三）异众比率（Variation Ratio）

异众比率是非众数的频数与全部个案数的比值，用VR表示，其含义是指众数所不能代表的其他数据（即非众数数据）在总数据中的比重。VR值越大，表示非众数的个案所占总数据的比例越大，也就是众数的代表性越小；反之，VR值越小，则表示众数的代表性越大。可见，异众比率这个离散量数是从反面检验众数的一项指标。

（四）离散系数（Coefficient of Variation）

上述方差、标准差、全距等，都属于绝对离散量数，即它们都是带有与原观察值（数据）相同量纲（单位）的量数。绝对离散量数的局限是，只有当两种离散量数的单位相同时，才能比较其大小；当两种离散量数的单位不同时，就无法进行差异比较。为了解决这个问题，统计学家创造出了相对离散量数，离散系数便是其中的一种。

（五）偏度系数

偏度系数是用来描述数据分布特征的统计量数。所谓偏度，指的是数据分布的偏倾方向和程度。因此，偏度系数属于离散系数范畴。计算偏度系数对于推断统计具有重要意义，因为它能说明数据总体是否或近似于正态分布，从而确定能否进行统计推断或如何进行统计推断。例如，如果发现一个样本数据的偏度较大，则该样本是否来自一个正态总体就值得怀疑，而这直接关系到能否进行统计推断的问题。

\subsection{单变量分析中的统计推断}

单变量分析不仅可进行统计描述，而且能进行统计推断。

（一）参数估计

参数估计（主要是区间估计）是用样本统计量来估计总体参数，它通常只涉及一个变量，当然也有涉及两个变量的，如相关系数的区间估计等，只是较少用到而已。
在单变量分析中，参数估计实际上可分为三种情况或类型，即总体平均数的参数估计、总体比率的参数估计和总体方差的参数估计。
三大区间估计类型中，每一大类型又可分成若干小类型，各种区间估计类型所要求的数据分布条件和统计计算方法都各不相同。

（二）假设检验

在单变量分析范围内，假设检验也可分为三大基本类型，即总体均值的假设检验、总体比率的假设检验、总体方差的假设检验。三大假设检验类型中，每一大类型又可分为两种小类型：即单样本的总体假设检验和两样本差异的总体假设检验。单样本总体假设检验，就是对单个样本的统计量（如平均数、比率、方差）是否可推断总体的检验；双样本差异的总体假设检验，就是要通过两样本统计量的差异（如平均数之差、比率之差、方差之差）是否在总体中也存在的检验，亦即要证明两样本的差异是否是由于来自两个不同的总体造成的。

单变量分析范围内的参数估计与假设检验，内容繁多而且复杂，在社会调查的统计分析中应用较少（在教育统计分析和心理统计分析中运用较多），因而这里只作粗略介绍，有兴趣者可参看有关统计学书籍。

\section{双变量统计分析}

\subsection{双变量分析的内容}

双变量统计分析，分为相关关系和因果关系两种形式。

（一）两变量之间的相关关系

两变量之间的相关关系，是指当一个变量X发生变化时，另一个变量Y也随之发生变化；反之，当y发生变化时，X也发生变化。人们通常把两个变量之间的相关关系表示为x→y。要全面、准确地理解两个变量之间的相关关系，必须了解相关关系三个方面的特性。

其一，相关的强度。就是两个变量之间联系的紧密程度，它表现为一个变量的变化导致另一个变量变化的大小程度。一个变量较小的变化能引起另一个变量较大的变化，表明这两个变量关系密切，即相关强度大；反之，一个变量较大的变化只能引起另一个变量较小的变化，则表示这两个变量相关强度小。在统计分析中，通常用相关系数来精确地表示两变量之间的相关强度，相关系数的取值区间为[一1，1]，相关系数为l时表示两变量完全正相关，取-l时表示完全负相关，相关系数为0时表示两个变量完全不相关。相关系数的绝对值越接近l，表不相关强度越大。

其二，相关的方向。当一个变量的变化引起另一个变量向相同方向变化时，称这两个变量之间存在着正相关关系，相关系数取正值。当一个变量的变化引起另一个变量向相反方向变化时，则称这两个变量之间存在着负相关关系，相关系数取负值。

其三，线性相关与非线性相关。所谓两个变量X和y呈线性相关，用数学语言表达，是指一个变量可以用另一个变量线性表示，如y=bx+a；反之，则表示两变量为非线性相关。

\subsection{两变量之间的因果关系}

两变量之间的因果关系，是指一变量的变化可以确定为另一变量变化原因的关系。要确定两个变量之间的因果关系，必须同时满足三个条件：

其一，两变量之间必须存在相关关系。两变量之间存在相关关系是二者存在因果关系的必要条件，但不是充分条件。
其二，必须确定自变量变化在前，因变量变化在后，即先有原因，后有结果。
其三，必须确定变量X与y之间的关系，不是由于第三个变量的存在而呈现出的一种虚假关系。

\subsection{双变量分析的方法}

双变量分析与单变量分析一样，也包括描述统计和推断统计两大部分，只是双变量分析的这两种统计方法都更加复杂。

在双变量分析中，由于变量的测量层次不同，因而计算两变量相关系数的方法和假设检验的方法也不相同。变量的测量层次，可分为定类、定序、定距、定比四种类型，这样就形成了多种不同测量层次变量的两两组合。两变量测量层次类型和与之相应的相关测量方法、假设检验方法见表\ref{tab:相关系数及检验方法}。\cite{李沛良，2001}

% Table generated by Excel2LaTeX from sheet 'Sheet2'
\begin{table}[htbp]
    \small %设定字体大小
  \centering
  \caption{常用双变量相关系数及推论检验方法}
    \begin{tabular}{c|c|c}
    \toprule
    两变量的测量层次				& 相关测量法										& 假设的检验 \\
    \midrule
    定类-定类							& \multirow{2}[4]{*}{λ,tau-y} & \multirow{2}[4]{*}{$\chi^2$检验} \\
    \cline{1-1}
    定类-定序							&       											&  \\ \hline
    定序-定序							& G，$d_y$  										& Z检验或t检验 \\ \hline
    定类-定距							& \multirow{2}[4]{*}{E} 			& \multirow{3}[6]{*}{F检验或t检验} \\
    \cline{1-1}
    定序-定距							&       											&  \\
    \cline{1-2}
    定距-定距							& r,b   											&  \\
    \bottomrule
    \end{tabular}%
  \label{tab:相关系数及检验方法}%
\end{table}%

表\ref{tab:相关系数及检验方法}中包括了双变量统计分析的所有方法。只要很好地掌握了这些方法，就可以顺利地进行各种类型的双变量统计分析。

（一）定距一定距变量统计分析

两个定距变量的统计分析，是传统统计分析的主要内容，因而也是相对成熟的统计分析方法。它包括相关分析方法和回归分析方法。相关分析与回归分析，是两种既有密切联系、又有本质区别的统计分析方法。

首先，相关分析与回归分析都以两个定距变量的线性关系为基础，分析与解释两个变量之间的相关或相互影响作用力的大小。
其次，相关分析是回归分析的前提和基础。

但是，相关分析与回归分析又是两种不同的分析方法，它们的区别是：

其一，相关分析是对两个变量双向依存关系的分析，通常不确定谁是自变量谁是因变量；回归分析是对两个变量单向关系的分析，即对自变量影响因变量的分析，必须明确谁是自变量谁是因变量，而且对于自变量每一个给定的数值，通过回归方程求得的因变量的估计值不只是一个确定的数值，而是许多可能数值的平均数，因而可以计算估计值的误差。

其二，从分析层次上讲，相关分析是一种描述和解释既存事实的研究方法，而回归分析则是一种通过对已有事实的分析进一步推断和预测未来可能发生什么的研究方法。因此，与相关分析相比较，回归分析是一种更高层次、更为深刻的统计分析方法。

1。两个定距变量的相关分析

2。两个定距变量的二元线性回归分析

对两个定距变量进行回归分析，称为二元线性回归分析，即只有一个自变量X和一个因变量y，且两个变量之间存在线性相关关系。二元线性回归分析，实质上就是要在变量x和变量y之间建立一个线性回归方程，从而用x去预测y。建立回归方程通常采用的方法称为最小二乘方法。

二元线性回归方程的标准形式为：y=bx+a

建立回归方程的主要问题是求出方程中回归系数b（回归线的斜率）和回归线在y轴上的截距a，这一过程称为配制回归线或拟合回归线。确定回归系数b的原则是使散布图（将X和y一一对应的值绘制而成的分布图）上各点距回归线上的相应点的纵向距离平方和为最小，这种求回归系数b的方法称为最小二乘方法。

回归分析的大致程序是：先根据研究目的确定自变量X和因变量y，对X和Y进行相关分析（如做散点图，计算X与y的相关系数），确定有无价值进行回归分析（如果X与y相关强度太弱，则回归分析价值不大）和能否进行回归分析（如X与y是否存在线性相关关系而不是曲线相关关系）；最后计算回归系数b和截距a，建立回归方程，并用自变量X对y进行预测。

\subsection*{参考资料}

[1] 李沛良. 社会研究的统计应用 [M]. 北京: 社会科学文献出版社, 2001.
